梯度上升:一种迭代优化方法,沿着目标函数在当前点的梯度(最陡上升方向)更新参数,从而逐步最大化目标函数(常用于最大化对数似然、收益函数等)。
(相关概念:与 gradient descent(梯度下降)相对,后者用于最小化目标函数。)
/ˈɡreɪdiənt əˈsent/
We use gradient ascent to maximize the log-likelihood.
我们使用梯度上升来最大化对数似然。
In reinforcement learning, policy parameters can be updated via gradient ascent on expected return, though practical algorithms often include baselines or constraints to stabilize training.
在强化学习中,策略参数可以通过对期望回报做梯度上升来更新,不过实际算法通常会加入基线项或约束以稳定训练。
gradient 来自拉丁语 gradus(“步、级”),引申为“变化的斜率/梯度”;ascent 来自拉丁语 ascendere(“向上攀登”)。合起来字面意思就是“沿着斜率向上走”,在数学与机器学习语境中即“沿梯度方向上升以增大函数值”。